A case report on gendered biases in a Finnish healthcare AI assistant
该研究报告指出,芬兰某基于检索增强生成(RAG)的医疗 AI 助手在临床查询中存在显著的性别偏见,不仅导致对女性变体的回答过度关联育儿与生殖健康等刻板印象,还因检索与生成阶段的偏差引发了临床语境误判及幻觉问题。
193 篇论文
该研究报告指出,芬兰某基于检索增强生成(RAG)的医疗 AI 助手在临床查询中存在显著的性别偏见,不仅导致对女性变体的回答过度关联育儿与生殖健康等刻板印象,还因检索与生成阶段的偏差引发了临床语境误判及幻觉问题。
本研究构建了一个整合影像学反应、循环肿瘤 DNA、安全性及生存终点的端到端合成肿瘤临床试验框架,成功模拟出具有生物学合理性和分析一致性的疗效 - 安全性信号,为转化肿瘤临床数据科学提供了决策导向的原型。
该研究通过比较基于胸片与放射科报告的多模态模型在预测 30 天死亡率上的表现,发现原始影像包含报告未能完全捕捉的预后信息,表明用专家撰写的报告替代原始图像会改变风险排序而非仅降低整体判别力,因此评估表征替代时应同时考量判别能力与排序一致性。
该研究通过系统综述和科学计量分析发现,胸部 X 光计算机视觉研究主要由高收入国家主导且训练数据多源自这些地区,这种显著的地理与数据不平等可能导致 AI 系统在不同医疗环境中表现不一致,进而加剧全球医疗不平等。
这项多方法研究通过全国在线调查和人工智能分析发现,尽管患者和照护者对行为健康危机单元安全风险的感知与 AI 检测存在部分一致性,但人类感知还受材料类型等非 AI 识别特征的影响,表明将 AI 辅助工具整合到安全评估中对于支持更安全环境决策具有重要价值。
这项针对医学同行评审人员的大规模国际横断面调查显示,尽管受访者普遍熟悉人工智能聊天工具,但其在评审中的实际应用仍十分有限,且主要受限于对算法偏见、伦理及数据隐私的担忧,同时评审人员普遍表达了对相关培训的需求。
该研究通过构建基于电子健康记录与医保数据的高通量标准化工作流,在 40 个临床领域生成了涵盖数万项结局评估的综合证据包,从而将碎片化的比较有效性研究转化为支持精准医疗和减少重复研究的统一证据基础。
该研究提出了一种基于贝叶斯集成与流行率自适应门控的围手术期死亡率预测模型,通过变分自编码器解决数据不平衡问题,在验证集中实现了零假阳性且全队列审计中具备临床意义的召回率,同时利用香农熵有效量化了预测不确定性。
本文提出了一种名为 TELF 的轻量级端到端模型,该模型通过在线学习医疗代码嵌入并采用后期融合策略,在无需计算密集型预训练的情况下,利用纵向真实世界数据实现了优于传统机器学习方法的可解释疾病风险预测及临床轨迹挖掘。
该研究基于 7081 名成年人的语音数据,证实了语音预测年龄不仅能与现有生物钟指标相当地反映生理衰老,还能独立捕捉衰老维度,且加速的语音衰老与肥胖、睡眠障碍及心血管代谢风险显著相关,从而确立了语音作为一种可扩展、非侵入性生物衰老标志物的价值。
该研究提出了一种名为“数字登记员”的以模式为先的框架,通过利用本地大语言模型将非结构化的多癌种手术病理报告转化为符合 CAP 标准的严格类型化数据,从而在确保隐私的前提下实现了高准确率的自动化癌症登记与互操作性。
本研究通过内部开发与外部验证表明,CD276 虽与脑膜瘤分级相关,但并非独立的强预测因子或主导性稳定特征,其预测效能主要源于更广泛的转录组多基因结构,且模型输出需结合校准谨慎解读。
本研究评估了三种大语言模型在提取临床移动功能状态时的可重复性与鲁棒性,发现温度升高和提示词改写会降低稳定性,而自一致性投票策略能显著提升模型可靠性。
该研究利用机器学习模型,基于电子健康记录数据成功预测心力衰竭患者的堪萨斯城心肌病问卷(KCCQ)评分,为在缺乏调查数据的人群中评估患者报告结局提供了有效工具。
该研究通过构建金标准语料库,系统评估并比较了基于规则的自然语言处理与多种大语言模型(包括最新“迷你”模型)在从电子健康记录非结构化文本中提取社会决定因素方面的性能,结果表明大语言模型表现更优,而将两者结合的晚融合策略进一步提升了领域层面的提取效果。
该研究通过在 50 万条去标识化临床笔记上对 Qwen3-4B 指令模型进行监督式继续预训练,成功使其在诊断预测和心脏骤停检测等临床任务上超越未训练的大规模模型,同时保持了通用领域能力的完整性。
本文提出了 Med-ICE 框架,通过让多个对等 LLM 代理进行迭代生成与同行评审的自主共识机制,显著提升了医疗大模型在临床工作流中的事实准确性与可靠性,并超越了现有单模型生成及自我优化技术。
该研究通过构建 MedResearchBench 基准评估了六种医疗 AI 研究系统,发现引用幻觉是决定系统成败的关键因素,并证明引入多智能体引用验证与修复机制能显著提升引用真实性并纠正单一模型评估的偏差。
该研究通过分析癌症同伴支持文本,发现仅针对复合负担目标的多任务学习模型在预测心理社会负担方面表现最佳,而引入辅助任务会降低性能,且基于大语言模型生成的软标签在情感分类任务中不如硬标签有效。
该研究通过机器学习模型分析元音声学特征(特别是基频 F0),成功以 89% 的准确率区分了成年自闭症谱系障碍患者与神经典型个体,证明了基于语音的自动化筛查在辅助 ASD 诊断中的潜力。